「自動摘要」(Automatic Summarization)的研究由來已久,方法大致分成三種:
- 萃取式摘要(Extraction-based summarization):從文章裡摘取重點句,組成摘要。
- 抽象式摘要(Abstraction-based summarization):分析文章中的抽象概念,進而生成摘要,由於涉及「自然語言生成」的步驟,技術難度較高,算是自動摘要的終極目標。
- 輔助式摘要(Aided summarization):電腦輔助,然後由人工完成摘要,在實務上比較可行。
最近的一篇回顧式文章, A Survey of Text Summarization Techniques (Ani Nenkova, Kathleen McKeown, 2012),介紹了現階段「萃取式摘要」這個領域的發展,以及目前廣被使用的摘要系統的特色。這裡筆者簡單的摘譯目前實作上的流程。
文件自動摘要的流程,大致上可以分為三個步驟:
1. 產生中介表徵(Intermediate representation)
電腦並不會真的像人一樣看懂字句(譯按:話說回來,人也不見得真的看得懂),所以把字句轉換成一些抽象的指標,像是「與某主題的相關性」、詞頻、TF.IDF、關鍵詞的共生性(coocurrence)、概念相關性等等。採用哪些指標,跟系統架構背後的語言學模型有關。
2. 為句子評分(Score sentences)利用中介表徵來為文章裡的每個句子評分,評分的方式也跟系統架構背後的語言學模型有關。
3. 由句子產生摘要(Select summary sentences)
每個句子有了分數之後,摘要系統最後必須從所有句子當中選出適當的組合,當做文件的摘要。
每個步驟都有相當多的細節,尤其是數十年來語言模型(language model)也持續推陳出新,也難在有限的篇幅裡說清楚,所以我們就在此就暫且打住。
雖然說學術理論有很多講究,但是其實很多 RSS feed 產生器就只是簡單的摘取文章最前面的若干字,實際上讀起來效果也是不錯的。有的時候,太去細究「為什麼」,結果反而變成過度詮釋,落入下乘。世界上很多事情,不見得有「為什麼」的。
沒有留言:
張貼留言